Mining Process Model Variants: Challenges, Techniques, Examples
نویسنده
چکیده
During the last years a new generation of process-aware information systems has emerged, which enables process model configurations at buildtime as well as process instance changes during runtime. Respective model adaptations result in large collections of process model variants that are derived from same process model, but slightly differ in structure. Generally, such model variants are expensive to maintain and configure. In this thesis, we present challenges, scenarios and algorithms for representing, comparing and mining such process model variants. We first introduce the notion of process distance, which corresponds to the minimal number of high-level change operations needed for transforming one process model into another. In general, we presume that the shorter the average distance between a reference process model and related process variants is, the less changes are required for adapting the variants and the less efforts are needed for (future) process configuration. In this context, we present a method based on boolean algebra to compute the distance between two process models. Starting with a collection of related process model variants, the major goal of this thesis is to discover a reference process model out of which these variants can be easily configured; i.e., a reference process model with minimal average distance to the variants. To achieve this goal we present two advanced algorithms which have their pros & cons, and that are applicable in different scenarios. Our clustering algorithm does not presume any knowledge about the original reference process model out of which the process model variants were configured. By only looking at the process model variants, this algorithm can quickly discover a reference process model in polynomial time, which allows us to scale up when solving real-world problems. The clustering algorithm further provides information on how well each part of the discovered reference model fits to the variants. Our heuristic algorithm, in turn, can take the original reference model into account as well. In particular, the user can control to what degree the discovered model differs from the original one. This way we can avoid spaghetti-like process models and additionally control how many changes we want to perform on the original reference model. We systematically evaluate and compare the two algorithms based on simulations that comprise more than 7000 process models. Simulation results indicate good performance and make the differences between the two algorithms explicit. For example, the simulation results indicate that our clustering algorithm runs significantly faster than our heuristic algorithm. However, our heuristic algorithm can identify important changes at the beginning of the search and can discover better results than the clustering algorithm. We successfully applied the two algorithms to cases from the automotive and the healthcare domain. During these case studies, the practical relevance and benefit of our work has become evident once more. Overall, this Ph.D thesis will contribute to more intelligent information systems by learning from past adaptations and to an improved management of the variants by continuously evolving related reference process model. vii Samenvatting De afgelopen jaren is een nieuwe generatie procesbewuste informatiesystemen verschenen die zowel configuraties in de ontwerpfase als veranderingen in de procesinstanties mogelijk maakt. De respectievelijke modeladaptaties resulteren in grote verzamelingen procesmodelvarianten die van hetzelfde procesmodel zijn afgeleid maar die kleine structuurverschillen hebben. Over het algemeen zijn deze modelvarianten duur in onderhoud en configuratie. In dit proefschrift presenteren wij uitdagingen, scenario’s en algoritmes voor representatie, vergelijking en mining van deze procesmodelvarianten. We introduceren eerst het begrip procesafstand dat correspondeert met het minimale aantal high-level veranderingsoperaties dat nodig is voor het omzetten van het ene procesmodel in het andere. In het algemeen nemen we aan dat hoe kleiner de gemiddelde afstand tussen een referentie procesmodel en een gerelateerde procesvariant, hoe minder veranderingen nodig zijn voor het aanpassen van de varianten en hoe minder inspanning nodig is voor (toekomstige) procesconfiguratie. In deze context presenteren wij een methode die gebaseerd is op Booleaanse algebra voor het berekenen van de afstand tussen twee procesmodellen. Startend met een verzameling gerelateerde procesmodelvarianten is het hoofddoel van dit proefschrift het vinden van een referentie procesmodel waaruit deze varianten gemakkelijk kunnen worden geconfigureerd; met andere woorden, een referentie procesmodel met een minimale afstand tot de varianten. Om dit doel te bereiken presenteren wij twee geavanceerde algoritmes die beiden vooren nadelen hebben, en die toepasbaar zijn in verschillende scenario’s. Ons clusteralgoritme veronderstelt geen kennis van het oorspronkelijke referentie procesmodel waaruit de procesmodelvarianten zijn geconfigureerd. Door alleen de procesmodelvarianten te beschouwen, is dit algoritme in staat snel een referentiemodel in polynomiale tijd te vinden, wat ons in staat stelt te schalen wanneer we realworld problemen oplossen. Daarnaast geeft het clusteralgoritme informatie over hoe goed ieder deel van het gevonden referentiemodel past met de varianten. Ons heuristiekalgoritme is echter in staat ook het oorspronkelijke referentiemodel in aanmerking te nemen. In het bijzonder kan de gebruiker bepalen hoeveel het gevonden model afwijkt van het origineel. Op deze manier voorkomen we spaghettiachtige procesmodellen en daarnaast houden we het aantal veranderingen dat we willen toepassen op het originele referentiemodel in de hand. We evalueren en vergelijken systematisch de twee algoritmes gebaseerd op simulaties die uit meer dan 7000 procesmodellen bestaan. Simulatieresultaten wijzen op een goede prestatie en maken de verschillen tussen de twee algoritmes duidelijk. Bijvoorbeeld, de simulatieresultaten duiden aan dat ons clusteralgoritme significant sneller loopt dan ons heuristiekalgoritme. Echter, ons heuristiekalgoritme is in staat in het begin van het zoekproces belangrijke veranderingen te ontdekken en het is in staat betere resultaten te vinden dan het clusteralgoritme. We hebben de twee algoritmes met succes toegepast op casussen uit de autoindustrie en de gezondheidszorg. Tijdens deze case studies zijn opnieuw de relevantie en voordelen van ons werk duidelijk geworden. ix In zijn geheel draagt dit proefschrift bij aan meer intelligente informatiesystemen door te leren van vroegere aanpassingen en door een verbeterd management van de varianten door het continue evolueren van het gerelateerde referentie procesmodel.
منابع مشابه
Mining business process variants: Challenges, scenarios, algorithms
During the last decade a new generation of process-aware information systems has emerged, which enables process model configurations at buildtime as well as process instance changes during runtime. Respective adaptations result in a large number of process model variants that were derived from the same process model, but slightly differ in structure. Generally, such model variants are expensive...
متن کاملApplication of non-linear regression and soft computing techniques for modeling process of pollutant adsorption from industrial wastewaters
The process of pollutant adsorption from industrial wastewaters is a multivariate problem. This process is affected by many factors including the contact time (T), pH, adsorbent weight (m), and solution concentration (ppm). The main target of this work is to model and evaluate the process of pollutant adsorption from industrial wastewaters using the non-linear multivariate regression and intell...
متن کاملIssues in Process Variants Mining
In today’s dynamic business world economic success of an enterprise increasingly depends on its ability to react to internal and external changes in a quick and flexible way. In response to this need, processaware information systems (PAIS) emerged, which support the modeling, orchestration and monitoring of business processes and services respectively. Recently, a new generation of flexible PA...
متن کاملMultidimensional Process Mining: Questions, Requirements, and Limitations
In: S. España, M. Ivanović, M. Savić (eds.): Proceedings of the CAiSE’16 Forum at the 28th International Conference on Advanced Information Systems Engineering, Ljubljana, Slovenia, 13-17.6.2016, published at http://ceur-ws.org Abstract. Multidimensional process mining is an emerging approach that adopts the concept of data cubes to analyze processes from multiple views. This enables analysts t...
متن کاملENRES: A Semantic Framework for Entity Resolution Modelling
Entity resolution, the process of determining if two or more references correspond to the same entity, is an emerging area of study in computer science. While entity resolution models leverage artificial intelligence, machine learning, and data mining techniques, relationships between various models remain ill-specified. Despite growth in both research and literature, investigations are scatter...
متن کاملDo Petri Nets Provide the Right Representational Bias for Process Mining?
Process discovery is probably the most challenging process mining task. Given an event log, i.e., a set of example traces, it is difficult to automatically construct a process model explaining the behavior seen in the log. Many process discovery techniques use Petri nets as a language to describe the discovered model. This implies that the search space—often referred to as the representational ...
متن کامل